The advance of computer-aided detection systems using deep learning opened a new scope in endoscopic image analysis. However, the learning-based models developed on closed datasets are susceptible to unknown anomalies in complex clinical environments. In particular, the high false positive rate of polyp detection remains a major challenge in clinical practice. In this work, we release the FPPD-13 dataset, which provides a taxonomy and real-world cases of typical false positives during computer-aided polyp detection in real-world colonoscopy. We further propose a post-hoc module EndoBoost, which can be plugged into generic polyp detection models to filter out false positive predictions. This is realized by generative learning of the polyp manifold with normalizing flows and rejecting false positives through density estimation. Compared to supervised classification, this anomaly detection paradigm achieves better data efficiency and robustness in open-world settings. Extensive experiments demonstrate a promising false positive suppression in both retrospective and prospective validation. In addition, the released dataset can be used to perform 'stress' tests on established detection systems and encourages further research toward robust and reliable computer-aided endoscopic image analysis. The dataset and code will be publicly available at http://endoboost.miccai.cloud.
translated by 谷歌翻译
组合多个传感器使机器人能够最大程度地提高其对环境的感知意识,并增强其对外部干扰的鲁棒性,对机器人导航至关重要。本文提出了可融合的基准测试,这是一个完整的多传感器数据集,具有多种移动机器人序列。本文提出了三项贡献。我们首先推进便携式和通用的多传感器套件,可提供丰富的感官测量值:10Hz激光镜点云,20Hz立体声框架图像,来自立体声事件相机的高速率和异步事件,来自IMU的200Hz惯性读数以及10Hz GPS信号。传感器已经在硬件中暂时同步。该设备轻巧,独立,并为移动机器人提供插件支持。其次,我们通过收集17个序列来构建数据集,该序列通过利用多个机器人平台进行数据收集来涵盖校园上各种环境。一些序列对现有的SLAM算法具有挑战性。第三,我们为将本地化和映射绩效评估提供了基础真理。我们还评估最新的大满贯方法并确定其局限性。该数据集将发布由原始传感器的设置,地面真相,校准数据和评估算法组成:https://ram-lab.com/file/site/site/multi-sensor-dataset。
translated by 谷歌翻译
组织病理学图像包含丰富的表型信息和病理模式,这是疾病诊断的黄金标准,对于预测患者预后和治疗结果至关重要。近年来,在临床实践中迫切需要针对组织病理学图像的计算机自动化分析技术,而卷积神经网络代表的深度学习方法已逐渐成为数字病理领域的主流。但是,在该领域获得大量细粒的注释数据是一项非常昂贵且艰巨的任务,这阻碍了基于大量注释数据的传统监督算法的进一步开发。最新的研究开始从传统的监督范式中解放出来,最有代表性的研究是基于弱注释,基于有限的注释的半监督学习范式以及基于自我监督的学习范式的弱监督学习范式的研究图像表示学习。这些新方法引发了针对注释效率的新自动病理图像诊断和分析。通过对130篇论文的调查,我们对从技术和方法论的角度来看,对计算病理学领域中有关弱监督学习,半监督学习以及自我监督学习的最新研究进行了全面的系统综述。最后,我们提出了这些技术的关键挑战和未来趋势。
translated by 谷歌翻译
多个实例学习(MIL)广泛用于分析组织病理学全幻灯片图像(WSIS)。但是,现有的MIL方法不会明确地对数据分配进行建模,而仅通过训练分类器来歧视行李级或实例级决策边界。在本文中,我们提出了DGMIL:一个特征分布引导为WSI分类和阳性贴剂定位的深度MIL框架。我们没有设计复杂的判别网络体系结构,而是揭示组织病理学图像数据的固有特征分布可以作为分类的非常有效的指南。我们提出了一种集群条件的特征分布建模方法和基于伪标签的迭代特征空间改进策略,以便在最终特征空间中,正面和负面实例可以轻松分离。 CamelyOn16数据集和TCGA肺癌数据集的实验表明,我们的方法为全球分类和阳性贴剂定位任务提供了新的SOTA。
translated by 谷歌翻译
生成的对抗网络(GAN)是在众多领域成功使用的一种强大的深度学习模型。它们属于一个称为生成方法的更广泛的家族,该家族通过从真实示例中学习样本分布来生成新数据。在临床背景下,与传统的生成方法相比,GAN在捕获空间复杂,非线性和潜在微妙的疾病作用方面表现出增强的能力。这篇综述评估了有关gan在各种神经系统疾病的成像研究中的应用的现有文献,包括阿尔茨海默氏病,脑肿瘤,脑老化和多发性硬化症。我们为每个应用程序提供了各种GAN方法的直观解释,并进一步讨论了在神经影像学中利用gans的主要挑战,开放问题以及有希望的未来方向。我们旨在通过强调如何利用gan来支持临床决策,并有助于更好地理解脑部疾病的结构和功能模式,从而弥合先进的深度学习方法和神经病学研究之间的差距。
translated by 谷歌翻译
在本文中,我们提出了一种使用自我监督的多任务学习的基于变换器的多曝光图像融合框架的传输。该框架基于编码器解码器网络,可以在大型自然图像数据集上培训,并且不需要地面真理融合图像。我们根据多曝光图像的特点设计三个自我监督的重建任务,并使用多任务学习同时进行这些任务;通过该过程,网络可以学习多曝光图像的特征并提取更多的广义特征。此外,为了补偿在基于CNN的架构中建立远程依赖性的缺陷,我们设计了一个与变压器模块相结合的编码器。这种组合使网络能够专注于本地和全局信息。我们评估了我们的方法,并将其与最新释放的多曝光图像融合基准数据集进行了11个基于竞争的传统和深入学习的方法,我们的方法在主观和客观评估中实现了最佳性能。
translated by 谷歌翻译
仿真有可能改变在安全关键方案中部署的移动代理的强大算法的开发。然而,对现有模拟发动机的差的光敏性和缺乏不同的传感器方式保持关键障碍朝来实现这种潜力。在这里,我们呈现Vista,一个开源,数据驱动模拟器,用于为自动车辆集成多种类型的传感器。使用高保真度,实际数据集,Vista表示和模拟RGB摄像机,3D LIDAR和基于事件的相机,可以快速生成模拟中的新颖观点,从而富集可用于与难以实现的拐角案例的政策学习的数据在物理世界中捕获。使用Vista,我们展示了在每个传感器类型上培训和测试对控制策略的能力,并通过在全尺度自主车辆上进行展示这种方法的功率。在Vista中学到的政策展示了SIM-TEAR-REAL转移,而不是改进和更高的鲁棒性,而不是完全在现实世界数据上培训的鲁棒性。
translated by 谷歌翻译
3D人类行动的点云序列表现出无序的帧内空间信息和订购的帧间时间信息。为了捕获点云序列的时空结构,通常构造围绕质心周围的跨框架时空局部邻域。然而,时空本地社区的计算昂贵的施工过程严重限制了模型的平行性。此外,在时空局部学习中同样地处理空间和时间信息是不合理的,因为人类的动作沿空间尺寸复杂并且沿着时间尺寸简单。在本文中,为了避免时空局部编码,我们提出了一个强的并行化点云序列网络,称为用于3D动作识别的顺序点。顺序pointNet由两个串行模块,即帧内外观编码模块和帧间运动编码模块组成。为了对人类动作的强空间结构进行建模,每个点云帧在帧内帧内外观编码模块中并行处理,并且每个帧的特征向量被输出以形成特征向量序列,其表征沿时间维度的静态外观变化的变化。为了对人类动作的弱时间变化进行建模,在帧间运动编码模块中,在特征向量序列上实现时间位置编码和分层金字塔汇集策略。另外,为了更好地探索时空内容,在执行端到端的3D动作识别之前聚合人类运动的多个级别特征。在三个公共数据集上进行的广泛实验表明,序贯POINTNETNET优于最新的方法。
translated by 谷歌翻译
在本文中,我们用relu,正弦和$ 2^x $构建神经网络作为激活功能。对于$ [0,1]^d $定义的一般连续$ f $,带有连续模量$ \ omega_f(\ cdot)$,我们构造了Relu-sine- $ 2^x $网络,这些网络享受近似值$ \ MATHCAL {o }(\ omega_f(\ sqrt {d})\ cdot2^{ - m}+\ omega_ {f} \ in \ Mathbb {n}^{+} $表示与网络宽度相关的超参数。结果,我们可以构建Relu-Sine- $ 2^x $网络,其深度为$ 5 $和宽度$ \ max \ left \ weft \ {\ left \ lceil2d^{3/2} \ left(\ frac {3 \ mu}) {\ epsilon} \ right)^{1/{\ alpha}} \ right \ rceil,2 \ left \ lceil \ log_2 \ frac {3 \ mu d^{\ alpha/2}} \ rceil+2 \ right \} $ tht \ Mathcal {h} _ {\ mu}^{\ alpha}([0,1]^d)$近似$ f \以$ l^p $ norm $ p \在[1,\ infty)$中的测量,其中$ \ mathcal {h} _ {\ mu}^{\ alpha}(\ alpha}([0,1]^d)$表示H \“ $ [0,1]^d $定义的旧连续函数类,带有订单$ \ alpha \ in(0,1] $和常数$ \ mu> 0 $。因此,relu-sine- $ 2^x $网络克服了$ \ Mathcal {h} _ {\ mu}^{\ alpha}([0,1]^d)$。除了其晚餐表达能力外,由relu-sine- $ 2实施的功能,也克服了维度的诅咒。 ^x $网络是(广义)可区分的,使我们能够将SGD应用于训练。
translated by 谷歌翻译
不同的环境对长期自主驾驶的户外强大的视觉感知构成了巨大挑战,以及对不同环境影响的学习算法的概括仍然是一个公开问题。虽然最近单眼深度预测得到了很好的研究,但很少有很多工作,专注于不同环境的强大的基于学习的深度预测,例如,由于缺乏如此多环境的现实世界数据集和基准测试,不断变化照明和季节。为此,基于CMU Visual Location DataSet建立了第一个跨赛季单眼深度预测数据集和基准赛季。为了基准不同环境下的深度估计性能,我们使用几个新配制的指标调查来自Kitti基准的代表性和最近的最先进的开源监督,自我监督和域适应深度预测方法。通过对所提出的数据集进行广泛的实验评估,定性和定量分析了多种环境对性能和鲁棒性的影响,表明即使微调,长期单眼深度预测也仍然具有挑战性。我们进一步提供了承诺的途径,即自我监督的培训和立体声几何约束有助于提高改变环境的鲁棒性。数据集可在https://seasondepth.github.io上找到,并且在https://github.com/seasondepth/seasondepth上提供基准工具包。
translated by 谷歌翻译